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® VerfahYens ZUr Datenkom P ression von strukturierten Dokumenten und Anordnung zur Durchfiihrung des 

(57) Der Anmeldungsgegenstand betrifft ein Verfahren bzw. 
eine Anordnung zur Datenkomprimierung von XML-ba- 
sierten Dokumenten, insbesondere MPEG-7-Dokumen- 
ten, bei dem Beschreibungsschemata, Instanzen von Do- 
kumenten und Anderungen dieser Instanzen z. B. unter 
Zugrundelegung eines Modells eines Zustandsautoma- 
ten in Anweisungen an diesen Zustandsa u torn ate n zur 
Bildung dieser Strukturen ubergefuhrt werden, wobei 
diese Anweisungen im Wesentlichen nur relative Adres- 
sen aufweisen und dadurch eine Komprimierung erreicht 
wird. 
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Beschreibung 



[0001] Die Erfindung betrifft ein Datenkompressionsver- 
fahren von XML-basierten Strukturierten Dokumenten, wie 
sie beispielsweise bei einem Entwurf fur MPEG-7 vorgese- 5 
hen sind. Die XML (Extensible Markup Language) ist ein 
Standard fur die Definition von Dokumentenstrukturen und 
dient zur Darsteliung strukturierter Daten in einem Textfile 
und bildet beispielsweise die Basis fur die Sprache 
XHTML. MPEG-7 ist ein Entwurf zu einem ISO/IEC-Stan- to 
dard fur eine Beschreibungssprache von multimedialen In- 
halten. Diese XML-basierten strukturierten Dokumente ba- 
sieren auf einer Menge von Strukturierten Elementen - im 
folgenden auch "Schema" genannt - wie sie zum Beispiel 
mit Hilfe von Document Type Definition (DTD), XML 15 
Schema oder Multimedia Description Schemes (DS) spezi- 
fiziert werden konnen. 

[0002] Dicsc strukturierten Dokumente licgen typischcr- 
weise als Textdatei vor, was einen erhohten Speicherbedarf 
urid fur eine Uberrnittlung einen erhohten Bandbreitebedarf 20 
bedeutet. Eine Moglichkeit, dieses Speicherplatz- oder 
Bandbreitenproblem zu losen, ist eine Kompression der Da- 
ten. Traditioneile Datenkompressionsverfahren erreichen 
gute Kompressionsraten bei groBen Textfiles, sind aber we- 
niger eflekliv bei kleineren Files, wie sie beispielsweise bei 25 
E-Business- An weridungen im Internet vorkommen. Dar- 
iiber hinaus konnen diese Kompressionsverf ahren auf einen 
kontinuierlichen Datenstrom zuriickgreifen. Urn wirklich 
effizient arbeiten zu konnen, benotigen sie jedoch beispiels- 
weise das gesamte Datenfile. Dies kollidiert jedoch mit den 30 
Realzeitbedingungen eines Netzes und ermoglicht keinen 
Wahlfreien Zugriff auf die codierten Daten. 
[0003] In der Internetveroffentlichung http:/ /www9.org/ 
w9cdrom/154/154.html vom 19.09.2000 ist auf den Seiten 1 
bis 24 ein CocUerungsformat fur eine effiziente Reprasenta- 35 
tion und einen Austausch von XML iiber das Netz unter dem 
Namen "Millau" veroffentlicht. Das Millau-Format wurde 
dazu entwickelt, XML-Dokumente in einer kompakten Art 
und Weise zu reprasentieren. Dies geschieht dadurch, dass 
"tokens" anstelle von "tags" der XML-Sprache und Attn- 40 
bute anstelle von Strings der XML-Sprache verwendet wer- 
den. 

[0004] Die der Erfindung zugrunde iiegende Aufgabe be- 
steht nun darin, ein Verfahren zur Datenkompression von 
Strukturierten Dokumenten anzugeben, bei dem eine mog- 45 
lichst gute Kompression bei gleichzeitig hoher Flexibility 
hinsichtlich der Datenstruktur erreichbar ist. 
[0005] Dieses Problem wird hinsichtlich des Verfahrens 
erfindungsgemaB durch die Merkmale des Patentanspruchs 
1 sowie durch die Merkmale des Patentanspruchs 4 und hin- 50 
sichtlich der Anordnung erfindungsgemaB durch die An- 
spriiche 13 und 14 gelost. 

[0006] Aus den weiteren Anspruchen ergeben sich bevor- 
zugte Ausgestaltungen der Erfindung, 

[0007] Im folgenden werden die hier verwendeten Aus- 55 
driicke "Strukturierte Elemente" und "strukturiertes Doku- 
ment" bezuglich Ihrer Eigenschaft definiert: 

- Su-ukturierte Elemente konnen eine Menge an zulas- 
sigen Verknupfungen mit weiteren Strukturierten Ele- 60 
mente spezifizieren. Des Weiteren konnen Strukturierte 
Elemente weitere zulassige Inhalte spezifizieren. 

- Ein strukturiertes Dokument enthalt Instanziierun- 
gen der strukturierten Elemente bestehend aus einer 
Auswahl an Verknupfungen weiteren Inhaltcn. 65 

[0008] Die Erfindung basiert im Wesentlichen darauf, dass 
Strukturierte Elemente als Zuslandsmuster (Knoten) eines 



Zustandsautomaten interpretiert werden konnen. Die Ver- 
knupfungen einer Menge an Strukturierten Elementen kon- 
nen als Zustandsiibergange des Zustandsautomaten aufge- 
fasst werden. Demnach kann die Struktur eines strukturier- 
ten Dokumentes als Liste von Zustandsubergangen interpre- 
tiert werden. Die Struktur eines MPEG-7 oder eines anderen 
XML-basierten Dokuments kann dementsprechend als Liste 
von Zustandsubergangen reprasentiert und binar effizient 
codiert werden. Der Vorteil dieses Modells ist, dass impli- 
zite Syntaxbeschrankungen sehr effizient ausgenutzt werden 
konnen, da in jedem Knoten nur die mdglichen Folgezu- 
stande codiert werden und dadurch nur sehr kurze (bdes fur 
die Baumstruktur des Dokuments erforderlich sind. Des 
weiteren ist der Codierprozess des Modells sehr flexibei und 
erweiterbar, da neue Eigenschaften und Anforde^ungen ein- 
fach durch die Definition neuer Zustands-Prototypen oder 
Befehle fiir einen Befehlsknoten integriert werden k6nnen. 
Zudcm basicrcn Dcfinitioncn von Mcngcn von Strukturier- 
ten Elementen ebenfalls auf strukturierten Dokumenten, so 
dass mit der hier vorgestellten Codierung diese ebenfalls bi- 
nar codiert werden konnen, zum Beispiel stellt ein XML 
Schema Dokument ebenfalls ein XML Dokument dar. 
[0009] Durch die Erfindung werden beispielsweise fol- 
gende Vorteile erreicht; 

1. Eine effiziente binare Darsteliung von strukturierten 
Dokumenten und/oder Strukturierten Elementen. 

2. Eine kornpakte Codierung der Struktur eines Doku- 
ments. 

3. Eine Unterstutzung der dynamischen Veranderung 
des strukturierten Dokuments und/oder Strukturierten 
Elements. 

4. Eine Unterstutzung fur den wahlfreien Zugriff auf 
ein codiertes Dokument. 

5. Eine Unterstutzung fiir die progressive Ubertra- 
gung, d. h. die Reihenfolge der Elemente eines Doku- 
ments im Datenstrom ist variabel. 

6. Eine Unterstutzung einer skalierbaren Binarrepra- 
sentierung eines Dokumentes, d. h. es wird Basisinfor- 
mation ubertragen, die die grundlegenderen Elemente 
beinhaltet und eine oder mehrere Datenstrome hiit zu- 
satzlichen Details. 

7. Eine Trennung der Struktur des Dokuments vom In- 
halt wird ebenso unterstiitzt, wodurch der Inhalt mit ei- 
ner separaten darauf spezialisierten Methode kompri- 
miert werden kann. 

[0010] Nachfolgend wird anhand der Zeichnung ein Aus- 
fuhrungsbeispiel der Erfindung naher erlautert Dabei zeigt: 
[0011] Fig. 1 einen Baumstrukturknoten eines Zustands- 
automaten, ........ r* 

[0012] Fig. 2 einen Instrukdonsknoten eines Zustandsau- 
tomaten 

[0013] Fig. 3 einen Attributknoten eines Zustandsautoma- 
ten 

[0014] Fig. 4 ein XML-Schema fur ein Beispiel einer 
Menge von Strukturierten Elementen, 

[0015] Fig. 5 ein zum Beispiel von Fig. 4 gehoriges bina- 
res Format der Struktur, 

[0016] Fig. 6 Anweisungen in Form eines Bitcodes zum 
Aufbau der Struktur von Fig. 4 bzw. 5 mit entsprechenden 
Kommentaren, 

[0017] Fig. 7 ein Beispiel eines Strukturierten Dokuments 
in Form eines XML-Dokuments, 

[0018] Fig. 8 Anweisungen in Form eines Bitcodes zur 
Erzeugung des in Fig. 7 beschriebenen Strukturierten Doku- 
ments, 

[0019] Fig. 9 eine binare Darsteliung des Strukturierten 
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Dokuments von Fig. 7 und 

[0020]. Fig. 10 Anweisungen in Form eines kommentier- 
len Bitcodes zur Anderung eines Strukturierten Dokuments 
[0021] Tn den Fig. 1 bis 3 sind Strukturierte Elemente 
(Knoten) zum Aufbau einer hier baumartigen Struktur fur 5 
em strukturiertes Dokument gezeigt. Die Slruktur ist in den 
meisten Fallen aus mehreren dieser Strukturierten Elemen- 
ten gebildet, kann aber auch aus nur einem dieser Struktu- 
rierten Elemente gebildei sein. 

[0022] In Fig. 1 ist ein Baumstrukturknoten TSN darge- 10 
stellt, aufgebaut aus einer lokalen Identifikationsnummer 
NODE-ID, einen Speicherplatz fur die Anzahl NC von 
Kindknoten, eine Zelle mit der Adresse 000 fur einen Zeiger 
auf einen Vaterknoten und Zellen mit den Adressen 001 bis 
110 fur Zeiger auf Kindknoten sowie eine Zelle mit der 15 
Adresse 1 1 1 mit einem Zeiger auf einen Befehlsknoten PIN 
Die Knotenbezeichnung NODE-ID definiert den Knotentyp 
in cindcutigcr Wcisc. Der Knotentyp kann entweder cin vor- 
deflnierter Knotentyp sein, der beispielsweise aus Standard- 
elementen eines standardisierten MPEG-7-Beschreibungs- 20 
schemas definiert wurde oder aber ein abgeleiteter oder er- 
weiterter Knoten mit einer lokalen Identifikationsnummer. 
Aus der Anzahl der Kindknoten wird die Lange des Bitfel- 
des berechnet, das zur Adressierung der Kindknoten benutzt 
wird. In diesem Beispiel sind mil einer 3-Bitadresse bis zu 6 25 
Kindknoten moglich. Mit der Adresse alle Bits gleich Null, 
hier 000, erfolgt. ein Ubergang in eine hohere Ebene einer 
Dokumentenhierarchie. Das letzte Codewort mit alien Bits 
gleich Eins, hier ill, hat die spezielle Bedeutung, die den 
Zustandsautomat in den Befehlsknoten zu bringen. Das We- 30 
sentliche ist dabei, dass bei der tJbermittlung bzw. der Spei- 
cherung des Dokuments nicht die Knotenidentifizierungen 
der Kindknoten ubertragen werden, sondern nur Anweisun- 
gen in Form eines Baumverzweigungs-Codes TBC, wo- 
durch die Codeworte sehr kurz und ihre Lange unabh'angig 35 
von der Tiefe des Knotens innerhalb des Baumes ist 
[0023] In Fig. 2 ist ein Befehlsknoten IN dargestellt, der 
, hier abhangig von einer 4-Bitadresse eine Escape-Funktion 
/. eine Initialisierung eines neuen Dokuments und beispiels- 
// weise weitere Befehle zum Hinzufugen und Loschen von 40 
U Knoten und Gruppen sowie weitere Funkuonen~inlEalt. In 
|| einem Instruction Set werden verschiedene Verfahren defi- 
\\ niert, mit denen ein Strukturiertes Dokument durch Erweite- 
rung oder Beschrankung verandert werden kann. Um diese 
Funktionalitat zu unterstutzen, wird der Typ eines Befehls- 45 
knotens initiiert. Wenn ein Knoten in einem Strukturierten 
Dokument verandert werden soli, werden die entsprechen- 
den Codeworte gesendet, um in dem instanziierten Doku- 
mentbaum an den betreffenden, zu andernden Knoten zu ge- 
langen. Dies kann entweder ausgehend von der Dokument- 50 
wurzel erfolgen, also durch einen absoluten Pfad, oder mit 
Hilfe eines Verweises in einer Zeigertabelle oder mit einem 
reiativen Pfad ausgehend von der aktuelien Position im 
Baum. Dann wird das Codewort fur den Befehlsknoten IN 
gesendet, d. h. der letzte Eintrag im Baumverzweigungskno- 55 
ten, in diesem Beispiel also 1 1 1 . Das foigende Codewort de- 
finiert die erste auszufuhrende Instruktion sowie gegebenen- 
falls die zugehorigen Parameter. Auch weitere Instruktionen 
konnen folgen. Wenn die Escape-Instruktion, hier also 000 
gesendet wird, schaltet der zugrundegelegte Zustandsauto^ 60 
mat zuruck in den Vaterknoten, von dem aus der Befehl auf- 
gerufen wurde. Der Befehls- oder Instruktionstyp legt fest 
wie viele Parameter, hier PI und P2, gelesen werden sowie 
deren Format und Semantik. Die Parameter definieren z. B 
die Position, an der cin Knoten cingefugt oder gcloscht wcr- 65 
den soil sowie die Knotenidentifizierung bei neu hinzuge- 
fugten Knoten. Neben den in Fig. 2 dargestellten Basisin- 
strukuonen sind beispielsweise noch foigende Instruktionen 



denkbar: 

1. Setze einen lokalen Pfad, 

2. andere die Codetabelle, 

3. lese Knotenidentifizierungen oder 

4. lese einen Satz von Knoten usw. 

[0024] In Fig. 3 ist ein Attributknoten AN dargestellt Fur 
diese Art Knoten sind spezielle Knotenidentifizierungen 
NODE-ID reserviert. Es gibt zwei verschiedene Klassen von 
Attributen: 

1. Solche, die vom Benutzer im Schema definiert sind 
und bei der Instanziierung mit einem Wert belegt wer- 
den konnen, und 

2. Standardattribute, die ebenfalls im Schema definiert 
werden, aber Einschrankungen an die Syntax des 
Strukturierten Dokuments zur Folgc haben, z. B. wic 
oft ein Element mindestens oder hochstens auftreten 
darf usw. Die Knotenidentifizierung NODE-ID legt da- 
bei fest, um welche Klasse und um welchen Typ es sich 
handelt Attribute sind Blatter im Dokument-Baum, 
d. h. sie durfen keine weiteren Kindknoten haben, son- 
dern nur einen Wert. Der Typ des Attributs legt dabei 
den Typ des Wertes fest, der bei der Uberlragung er- 
wartet wird. Es konnte beispielsweise eine Zeichen- 
kette oder eine Zahl sein. Diese Information wird aus- 
genutzt, um festzustellen, wie viele Bits fur das Attri- 
but gelesen werden mussen. Ist der Typ z. B. eine vor- 
zeichenlose ganze Zahl mit acht Bits, dann werden acht 
Bits fur dieses Attribut gelesen, bei einem String wird 
bis zum ersten Null-Oktett gelesen. 



[0025] Inhaltsknoten sind ebenso wie Attributknoten Blat- 
ter der Baumstruktur eines Strukturierten Dokuments. In 
XML gibt es viele vordefinierte Datentypen, die als Attri- 
bute oder Inhalte genutzt werden konnen. 
[0026] In Fig. 4 ist ein XML-Schema XMLS fur ein Bei- 
spiel einer Menge von Strukturierten Elementen dargestellt. 
Hierbei werden u. a. Strukturierte Elemente wie "purchase 
order type", "address", "items" und entsprechende Variable 
von diesem Typ definiert. 

[0027] In Fig. 5 ist ein zum Beispiel von Fig. 4 gehoriges 
binares Format SBF der, Struktur dargestellt. Die Struktur 
wird im Zustandsautomatenmodell in die in Fig. 5 darge- 
stellte Struktur ubertragen, wobei die Namen der Knotenbe- 
zeichnungen NODE-ID ID: 1,. . .9 nur zur Referenz in der 
Textversion von Fig. 4 dienen und hier nur beliebige ge- 
wahlte Zahlen darstellen. Hieraus wird deutlich, dass die ge- 
samte Menge bis auf die Blatter nur Strukturierten Elemen- 
ten enthalt, deren Anzahl von Kindknoten sich im allgemei- 
nen unterscheiden. Ein Decoder muss dies Struktur kennen, 
um den Bitstrom zur Instanziierung richtig interpretieren zu 
konnen. Deshalb muss das Schema beispielsweise vom Ser- 
ver an den Client ubertragen werden. Dies kann beispiels- 
weise in Textform oder aber als Anweisung fur ein Modell 
eines Zustandsautomaten erfolgen. Im ersteren Fall muss 
der Client selbst aus dem Beschreibungsschema in der Text- 
form ein entsprechendes Binarformat des Schemas erzeu- 
gen. 

[0028] In Fig. 6 sind Anweisungen an ein Modell fur ei- 
nen Zustandsautomaten in Form eines Bitcodes BC darge- 
stellt, wobei diese Anweisungen zum Aufbau der Struktur 
von Fig. 4 bzw. 5 fuhren. Hieraus wird deutlich, dass in ei- 
nem Befehlsknoten des Zustandsautomaten cin ncucr 
Baumverzweigungsknoten erzeugt wird und zur Erzeugung 
der Baumstruktur die Zeiger auf die jeweiligen Kindknoten 
festgelegt werden. 
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[0029] In Fig. 7 ist ein Beispiel eines Strukturierten Doku- 
ments in Form eines XML-Dokuments XML1 dargesteUt. 
Das hier dargestellte Beispieldokument wurde mit dem ein- 
gangs definierten Schema aufgebaut Aus dem hier darge- 
steUten Dokument wird u. a. deutlich, dass den eingangs de- 
finierten Strukturelementen hierbei konkrete Inhalte II, 12, 
. , . zugeordnet werden. 

[0030] In Fig. 8 sind Anweisungen BC1 fur das durch die 
baumartige Struktur definierte Modell eines Zustandsauto- 
maten in Form eines Bitcodes zur Erzeugung des in Fig. 7 10 
beschriebenen Strukturierten Dokuments dargesteilt. Hier- 
bei wird deutlich, dass zur Beiegung der Inhaltsknoten nur 
eine sehr geringe Adressbreite AB benougt wird, da der 
Rest der Adressierung quasi durch den jeweiligen Zustand 
des Zustandsautomaten geliefert wird. Dies hat eine starke 15 
Kompression zur Folge, da pro Inhalt nicht immer die voile 
absolute Adresse fur den jeweiligen Inhalt Ubertragen bzw. 
gcspcichcrt wcrdcn muss. Dicscm Beispiel wird der Inhalt 
zusammen mit dem Baumverzweigungscode ubertragen. 
Der Inhalt konnte aber auch von der Beschreibung abge- 20 
trennt in einem eigenen Datenstrom ubertragen werden. 
[0031] In Fig. 9 ist eine binare DarsteUung DBF des 
Strukturierten Dokuments von Fig. 7 dargesteUt, wie es 
durch die Anweisungen von Fig. 8 durch den Zustandsauto- 
mat, der seinerseits durch die vprher beschriebene Struktur 25 
bestimmt ist, erzeugt wird. Das Wurzelelement des Doku- 
ments ist hier in diesem Beispiel "purchase order", seine 
Knotenidentifizierung NODE-ID ist 20, die hier zufallig fur 
das Beispiel gewahlt wurde. Das erste Feld enthalt die Zahl 
der Kindknoten, wobei die Knotenzahl hier 1 ist, da der Va- 30 
terknoten und der Befehlsknoten immer vorhanden sind und 
implizit mitzahlen. Die Referenz zum Vaterknoten dieses 
Knotens ist der Initialisierungsknoten, der alle Dokumente 
des Terminals verwaltet. Der erste Kindknoten hat den 
Baumverzweigungscode TBC 01 und die Referenz zeigt auf 35 
"purchase order tvpe". Es gibt keinen zweiten Kindknoten, 
deshalb ist die Referenz 10 NULL. Der letzte Baumverzwei- 
gungscode TBC zeigt auf den Befehlsknoten, der aufgerufen 
werden konnte, wenn dieser Knoten geandert werden soil. 
Der zweite Knoten "purchase order type" enthalt alle Unter- 40 
elemente, die die detaillierten Informationen zu "purchase 
order" enthalten, namlich "ship to", "built to", "comment", 
"items", "date". Der erste Kindknoten zeigt auf den Vater- 
knoten, namlich auf den Knoten mit der Identifizierung 
NODE-ID 20, also auf "purchase order". Auf diese Weise 45 
wird der Dokumentenbaurn aufgebaut. Die Inhalts- und At- 
tributsknoten haben keine Baumverzweigungsknoten, son- 
dem nur eine Referenz auf den Vaterknoten. Selbst die Re- 
ferenz auf den Vaterknoten konnte entfallen, da sie definiti- 
onsgemaB die Blatter des Baumes sind und ihrerseits keine 50 
Kinder haben konnen, sondem nur Attributdaten oder Inhalt 
darstellen. Der Inhalt konnte codiert werden als "inline-Da- 
ten", die z. B. durch eine mit Null abgeschlossene Zeichen- 
kette gebildet werden, oder als Zeiger auf einen anderen Da- 
tenstrom reprasenuert werden, der separat komprimiert 55 
wird. In entsprechender Weise konnen auch dynamische 
Veranderungen des Dokuments vorgenommen werden. Im 
folgenden wird in einem Beispiel gezeigt, wie die Instanz 
des bestehenden Dokuments dynamisch vom Server mit 
Hilfe von Anweisungen an ein Modell eines Zustandsauto- 60 
maten auf der Empfangerseite, also beim Client durchge- 
fuhrt wird. Angenommen, es soil folgender zusatziicher 
Knoten zur Liste der Waren hinzugefugt werden: 
<item partNum = "724-CN"> 

<productNamc>Mounlain Bikc</productNamc> 65 
<quantity>l</quantity> 
<price>3800.00<//price> 

<comment>I want it in colour black !</comment> 



</item> 

[0032] Ausgehend von einem in Fig. 9 dargestellten Do- 
kumentenbaurn beim Client werden vom Server Anweisun- 
gen in Form eines Bitcodes BC3 wie er in Fig. 1 0 dargesteUt 
ist, ubertragen. Der hier beschriebene Code bewirkt beim 
Zustandsautomaten des Client im wesentlichen folgendes: 



1. Durchfuhren einer Setup- Sequenz, wobei sich das 
System wahrend der Initialisierung in einem Befehls- 
knoten befindet. 

2. Gehe zu der Position im Baum, die verandert wer- 
den soil. Hierbei ist auch ein vordefinierter Pfad in ei- 
ner Baumzeigertabelle anwendbar, fur den Fall uef ver- 
schachtelter Strukturen, auf die oft zugegriffen wird. 

3. Gehe zum Befehlsknoten, wobei auch ein rekursiver 
Aufruf moglich ist. 

4. Erweiterung des Baumverzweigungscodes von 2 
auf 3 Bits und die Erhohung der Knotcnanzahl von 2 
auf 3, wobei sich im Knoten mit der NODE-ID 25 der 
Inhalt von 11 auf 111 andert. 

5. Danach folgen ahnliche Schritte wie bereits weiter 
oben erwahnt. Danach ist das System in dem Befehls- 
knoten und anschlieBend ist der Zustandsautomat im 
veranderten Knoten <items>. 

6. Um vom Vaterknoten von <items> zuruckzukehren, 
mussen 3 Bits ubertragen werden, da die Zahl der Kin- 
der sich von 2 auf 3 erhoht hat. 

7. Zum Schluss erfolgt eine Ruckkehr zur WurzeL das 
wieder eine Instanz des Befehlsknotens darstellt. Das 
System ist bereit fur weitere Befehle. 

[0033] Auf dieser Basis ist eine Datenkompression von ei- 
ner Menge von Strukturierten Elementen bzw. eines Be- 
schreibungsschema, von Strukturierten Dokumenten unt in- 
stanziierten Strukturierten Elementen und von entsprechen- 
den Anderungen einer Menge von Strukturierten Elementen 
oder eines Strukturierten Dokuments moglich, wobei je- 
weils ein Strom von Anweisungen an einen Zustandsauto- 
mat erzeugt wird, der dann entweder gespeichert oder uber- 
tragen wird. 

[0034] In entsprechend umgekehrter Weise ist naturhch 
auch eine Dekompression in Strukturen, oder Strukturierte 
Dokumenten oder deren Anderungen aus den entsprechen- 
den Anweisungen fur den zugehorigen Zustandsautomaten 
moglich. 

[0035] Auf dieser Basis sind Anordnungen zur Durcnlun- 
rung des Verfahrens in Form von Encodern oder Decodem 
realisierbar. 

Patentanspruche 

1. Verfahren zur Datenkompression eines Strukturier- 
ten Dokuments, 

bei dem das Strukturierte Dokument in Textform 
(XML1) vorliegt, 

bei dem zu Beginn eine aus mindestens einem Struktu- 
rierten Element (TSN, . .) bestehende Struktur (SBF) 
eines Schemas aufgebaut wird, 

bei dem auf der Basis der zu Grunde liegenden Struktur 
des Schemas Anweisungen (BCD mit im Wesentlichen 
relativen Adressen (ID: 20. .53) derart ermittelt wer- 
den, dass eine durch das Strukturierte Dokument be- 
schriebene Datenstruktur (DBF) entsteht, 
bei dem die Anweisungen (BC1) mit den im Wesentli- 
chen relativen Adressen das Strukturierte Dokument in 
komprimierter Form darstellen. 

2. Verfahren nach Anspruch 1, bei dem die Anweisun- 
gen (BC1) binar mit wahlweise variabler oder fester 
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Lange reprasentierl oder codiert werden, und bei dem 
diese variable oder feste Lange von der Anzahl der 
moglichen Verknupfungen (NC) eines Strukturierten 
Rlementes ahhangt. 

3. Verfahren nach Anspruch 1 oder 2, bei dem die 
Strukturen mindestens Baumstrukturknoten (TSN) und 
zusatzlich Befehlsknoten (IN) und/oder Inhaltsknoten 
und/cxier Attributknoten (AN) aufweisen. 

4. Verfahren zur Datenkompression eines Schemas 
be! dem ein Schema (XMLS) fur Strukturiertc Doku- 
mente in Textform vorliegt, 

bei dem auf der Basis mindestens eines bekannten 
Strukturierten Elements (TSN, . .) Anweisungen (BC) 
mit mi Wesentlichen relativen Adressen (ID: 1. .9, 
102. .) derart ermittelt werden, dass eine durch das 
Schema fur Strukturierte Dokumente beschriebene Da- 
tenstruktur (SBF) entsteht, 

bei dem die Anweisungen mit den im Wesentlichen re- 
lativen Adressen das Schema fur Strukturierte Doku- 
mente in komprimierter Form darstellen. 

5. Verfahren nach Anspruch 1 oder 4, bei dem eine 
wahlweise variable oder feste Lange der relativen 
Adressen von der Anzahl der moglichen Verknupfun- 
gen eines Strukturierten Elementes abhangt. 

6. Verfahren zur Datenkompression eines Slrukturier- 
ten Dokuments, : * 

bei dem das Strukturierte Dokument. in Textform vor- 
liegt, 

bei dem zu Beginn auf der Basis mindestens eines 
Strukturierten Elements und einem Schema fur das 
Strukturierte Dokument in komprimierter Form eine 
Datenstruktur aufgebaut wird, die durch das Schema 
des Strukturierten Dokuments in komprimierter Form 
beschrieben ist, wobei das Schema fur das Strukturierte 
Dokument in komprimierter Form gemaB dem Verfah- 
ren nach Anspruch 4 gebildet wurde, 
bei dem auf der Basis der zu Grunde liegenden Struktur 
fur das Schema Anweisungen (BC3) mit Wesentlichen 
relativen Adressen derart ermittelt werden, dass eine 
durch das Strukturierte Dokument beschriebene Daten- 
struktur entsteht, und 
bei dem die Anweisungen mit den im Wesentlichen re- 
lativen Adressen das Strukturierte Dokument in kom- 
primierter Form darstellen. 

7. Verfahren nach Anspruch 1, bei dem das struktu- 45 
nerte Dokument verandert wird und die Veranderung 
durch die relative Adresse des Operanden im instanzi- 
lerten strukturiertem Dokument und durch die Adresse 
einer Operation innerhalb eines Befehlsknotens spezi- 
fiziert wird. 

8. Verfahren nach Anspruch 4, bei dem das Schema 
verandert wird und die Veranderung durch die relative 
Adresse des Operanden im Schema, und die Operation 
durch die Adresse innerhalb eines Befehlsknoten spezi- 
fi ziert wird. 

9. Verfahrens nach einem der vorhergehenden Anspru- 
che zur Datenkomprimierung eines XML-Dokuments, 
eines in einer von XML abgeleiteten Sprache verfass- 
ten Dokuments oder eines MPEG7-Dokuments. 

10. Verfahren nach einem der vorhergehenden An- 
spriiche, bei dem aus der komprimierten Darstellung 
die Struktur des Dokuments oder die Struktur des 
Schemas ganz oder teilweise rekonstruiert wird. 

11. Verfahren nach Anspruch 11, bei dem das struktu- 
rierte Dokument oder das Schema ganz oder teilweise 
in eine textuelle Darstellung decodiert wird. 

12. Anordnung zur Durchfuhrung des Verfahrens nach 
Anspruch 1, 
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bei der Mittel zum Speichem des Strukturienen Doku- 
ments vorhanden sind, 

bei der Mittel vorhanden sind, die auf Basis einer aus 
mindestens einem Strukturierten Element hestehenden 
Struktur fur ein Schema aufbauen, und 
bei der Mittel vorhanden sind, die auf der Basis der zu 
Grunde liegenden Struktur fur das Schema Anweisun- 
gen (101) mit Wesentlichen relativen Adressen (101) 
derart ermitteln, dass eine durch das Strukturierte Do- 
kument beschriebene baumartige Datenstruktur ent- 
steht, wobei die Anweisungen mit den im Wesentlichen 
relativen Adressen das Strukturierte Dokument in kom- 
primierter Form darstellen. 

13. Anordnung zur Durchfuhrung des Verfahrens nach 
Anspruch 4, 

bei der Mittel zum Speichem eines Schemas fur Struk- 
turierte Dokumente vorhanden ist und 
bei der Mittel vorhanden sind, die auf der Basis minde- 
stens eines bekannten Strukturierten Elements Anwei- 
sungen mit im Wesentlichen relativen Adressen derart 
ermitteln, dass eine durch das Schema fur Strukturierte 
Dokumente beschriebene Datenstruktur entsteht, wo- 
bei die Anweisungen mit den im Wesentlichen relati- 
ven Adressen das Schema fur Strukturierte Dokumente 
in koinpriinierler Form darstellen. 
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FIG 4A 



XMLS 



|<xsd:schema xmlns:xsd="http://www.w3.org/1 999AMLSchema"> 

<xsd:annotation> 
<xsd:documentation> 
Purchase order schema for Example.com 
Copyright 2000 Example.com. All rights reserved 
</xsd:documentation> 
</xsd:annotation> 

<xsd:element name="purchaseOrder" type="PurchaseOrderType"/> 

<xsd:elementname="comment" type="xsd:stringV> 

<xsd:complexType name= "PurchaseOrderType"> 

<xsd:element name="shipTo" type="Address"/> 

<xsd:element name="billTo" type="Address7> 

<xsd:element ref="comment" min0ccurs="07> 

<xsd:element name="items" type="ltems7> 

<xsd:attribute name="orderDate" type="xsd date7> 
</xsd:complexType> 



<xsd:complexType name = "Address" > 
<xsd:elementname= n name" type= 
<xsd:element name = "street" type= 
<xsd:elementname="city M type= 
<xsd:element name="state" type= 
<xsd:element name="zip" type= 
<xsd:attribute name = "country" type= 

use="fixed" value= M US7> 
</xsd:complexType 



="xsd:string7> 
="xsd:strlng7> 
="xsd:string7> 
="xsd:string"/> 

="xsd:decimal7> 
: "xsd:NMT0KEN" 
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FIG 4B 

<xsd:complexType name="ltems"> : 
<xsd:element name= n item" minOccurs="0" maxOccurs= "unbounded" > 

<xsd:complexType> 

<xsd:element name="productName" type = "xsdtstring"/ > 
_ <xsd:element="quantity" 

<xsd:simpleTypebase="xsd:positivelnteger"> 

<xsd:maxExclusive value="1007> 
</xsd:simpleType> 
</xsd:element> 

<xsd:elementname= H price n type="xsd:decimal7> 
<xsd:element ref="commenf min0ccurs="07> 
<xsd:element name="shipDate" type ="xsd: date" minOccurs='0'/> 
<xsd attribute name="partNum" type="Sku7> 
</xsd:complexType> 
</xsd .element > 
</xsd:complexType> 

</xsd:simpleType name ="Sku" base ="xsd:string"> 
<xsd:pattern value='\d{3}-[A-Z] {2}7> 
</xsd:simpleType> 

</xsd:schema> ; 

" S 

XMLS 
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FIG 5B 
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The Purchase Order, po.xml 
<?xml verson="1.0"?> 
< purchaseOrder orderDate= M 1 999-1 0-20"> 
<shipTocountry="US"> 

< name > Alice Smith </name> ~I1 
<street>123 Maple Street </street> ~ 12 
<clty> Mill Valley </city> j 
<state>CA</state> 
<zip>90952</zip> 
</shipTo> 

<billTo country ="US"> 

< name > Robert Smith </name> 

<street>8 Oak Avenue </street> 

<city>OldTown</city> 

<state>PA</state> 

<zip>95819</zip> 
</billTo> 

<comment>Hurry, my lawn is going wild!</comment> 
< items > 

<item partNum="872-AA"> 

< productName > Lawnmower </productName > 

< quantity >1 </quantity> 

<price>148.95</price> 

<comment>Confirm this is eletric</comment> 
</item 

<item partNum="926-AA"> 

<productName>Baby Monitor </productName> 

<quantity>1</quantity> 

<price>39.98</price> 

<shipDate>1999-05-21 </shipDate> 
</item> 

</items> 

</purchaseOrder> 
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